RL en preentrenamiento de LLM: optimización temprana de políticas Aplicar RL durante el preentrenamiento de LLM mejora rendimiento, superando al enfoque SFT→RL. Fusionar RL y SFT da mejores resultados sin perder capacidades. 2026-06-04 · 2 min